5 Asignación de Crédito para Respuestas

Autor/a

Arturo Bouzas

El acceso a sucesos biológicamente importantes es fundamental para la supervivencia y reproducción de los organismos. Aquellos organismos que puedan predecir confiablemente la ocurrencia de los SBI tienen una ventaja comparativa en términos de su éxito reproductivo. Aprender que un cielo encapotado predice una fuerte lluvia le permite a un individuo anticiparse y prepararse correctamente para ella. De igual forma, escuchar un rugido le permite a una presa prepararse para el caso de un posible ataque. Sin embargo, el individuo no tiene control sobre lo nublado del cielo, ni sobre la presencia del depredador dado el rugido. Puede predecir cuándo lloverá, pero no puede alterar el que llueva; puede predecir que detrás del rugido esté un depredador, pero no puede modificar su presencia.

Uno de los saltos importantes en la historia evolutiva fue la emergencia de mecanismos biológicos que, a través de la acción y la interacción con el entorno, permiten a los organismos controlar la ocurrencia de sucesos biológicamente importantes. Estos mecanismos se encuentran estrechamente asociados a un componente específico de la estructura causal de los entornos: las relaciones que describen cuáles acciones de un organismo son exitosas para obtener mayores opciones de acceso a SBI. Un ejemplo en nuestra especie de estas ”elaciones que describen las acciones exitosas para acceder a mayores opciones de SBI” son los contratos laborales: en estos se contienen las reglas que especifican las acciones a seguir para acceder a un monto de dinero (lo que equivale a mayores opciones de SBI para nuestra especie). Otros ejemplos son: las reglas que especifican qué acciones llevar a cabo si se desea tomar un transporte público; las reglas que definen las acciones requeridas para iniciar una relación amorosa; las reglas que especifican a su mascota qué acciones le otorgan una comida especial; las reglas que especifican a cada especie las acciones que facilitan su acceso a alimentos, así como los actos que les permiten escapar y evitar a sus depredadores.

Desde la psicología, nos preguntamos cómo un organismo logra reconocer dichas estructuras causales: específicamente, cómo puede determinar qué acción específica, entre muchas posibilidades, es la responsable del resultado deseado (el SBI). En los libros de texto, al estudio de la respuesta a esta pregunta se le conoce como condicionamiento instrumental o condicionamiento operante. En estas notas abordaremos su estudio con base en el mismo grupo de principios con los que abordamos los resultados de los protocolos de condicionamiento clásico.

Antes de describir cómo se aplican los mismos principios a los fenómenos de condicionamiento instrumental, es conveniente revisar el estudio original del que surgió esta área de investigación: siguiendo el mismo proceder que seguimos para entender el condicionamiento clásico. Al inicio del siglo XX, Edward Thorndike condujo una serie de estudios con gatos. Él diseñó una variedad de cajas experimentales, de las que un gato encerrado podría escapar activando dispositivos como un cerrojo o una palanca. (Ver figura). La medida del aprendizaje era el tiempo que le tomaba al gato para escapar de la caja. De los datos mostrados en la figura x, puede verse que el tiempo que le tomaba escapar al gato disminuyó conforme aumentaba el número de ensayos en los que se le encerraba. Al inicio, los gatos intentaban un número grande de respuestas hasta que accidentalmente operaban el dispositivo que abría la puerta. Después de algunos ensayos, el gato empezaba a activar el dispositivo de escape inmediatamente después de que se le metía a la caja. Thorndike caracterizó esta ejecución como una de ensayo y error. El gato intentaba diferentes respuestas (ensayos) y las descartaba si no lo llevaban a salir de la caja (error).

Es posible identificar que el resultado de los experimentos de Thorndike está compuesto de dos observaciones. La primera es el conjunto de respuestas que lleva a cabo el gato antes de emitir la respuesta correcta. La segunda observación es que después de varios ensayos, el gato ejecuta de forma casi exclusiva e inmediata la respuesta que fue exitosa para escapar de la caja. Para entender estas dos observaciones, recordemos que en el capítulo anterior vimos que el encuentro inesperado con un suceso biológicamente importante (SBI) echa a andar dos mecanismos: uno que controla el comportamiento apropiado para la interacción con y búsqueda adicional del SBI, y un segundo, que permite predecir y controlar su futura ocurrencia.

Para analizar los dos principios que ilustra el comportamiento de ensayo y error, recordemos que los sesgos inductivos pueden dividirse en dos clases:

Aquellos que determinan qué elementos -en nuestro caso respuestas- conforman el espacio de candidatos a la asignación de crédito.
Los sesgos que determinan cuál elemento dentro del espacio se debe considerar primero.

En el caso del primer sesgo, el que delimita el espacio de respuestas candidato a la asignación de crédito, las respuestas inducidas por el SBI juegan un papel equivalente al de las mutaciones y la recombinación genética dentro del proceso de generación de variabilidad en la teoría de la evolución. Las respuestas del organismo y la variabilidad genética coinciden en que ambas generan el espacio de opciones seleccionables (candidatos) dentro de los procesos de selección de los que forman parte. En la teoría de evolución, un conjunto de genes creado por las mutaciones y la recombinación genética es sometido a un proceso de selección por los cambios en el entorno; en la la teoría de los sesgos inductivos, un conjunto de respuestas generadas por un organismo en su interacción con el entorno es sometido a un proceso de selección por el sesgo inductivo del organismo. Por otra parte, el segundo sesgo referido, aquel que establece el orden de prioridad para evaluar las respuestas candidato, es equivalente a los procesos específicos de selección natural. De la misma forma en la que la selección natural se dan procesos bien definidos para descartar y conservar genes particulares de entre un amplio espacio de candidatos, existen procesos bien definidos a nivel de los sesgos inductivos (de la segunda clase) del organismo, que describen cómo este prioriza, descarta y conserva las respuestas de entre su espacio de candidatos.

Para entender los resultados de sus experimentos, Thorndike propuso un principio que se conoce como La ley del Efecto, la cual establece que: “En la presencia de un estímulo (situación, contexto) pueden ocurrir una multitud de respuestas. Aquella que vaya seguida de un estado de cosas satisfactorio tendrá que ser la que se asocia (conecta, selecciona) con el estímulo.”

La ley del efecto de Thorndike prioriza a la contigüidad como el factor que determina tanto el espacio de candidatos, como el orden que establece cuáles elementos evaluar primero. La ley no toma en cuenta el origen de las respuestas que anteceden al “estado de cosas satisfactorio”. Este último término al poco tiempo se convertiría en el concepto que hoy conocemos como “refuerzos” y que en estas notas llamaremos también SBI. En lo que resta del capítulo, revisaremos la historia y la evidencia acerca del papel de la contigüidad en la asignación de crédito para una respuesta.

En 1947, Skinner publicó los resultados de un pequeño experimento para demostrar la suficiencia de la contigüidad para el aprendizaje de respuestas. A las palomas hambrientas se les presentó comida cada 15 seg., independientemente de su comportamiento. Se observó que a pesar de esto, muchas palomas desarrollaron comportamientos estereotipados, como girar en círculos o picotear ciertas áreas. Los comportamientos difieren de paloma a paloma. (Ver figura). Skinner explicó estos resultados, señalando que para cada ave, una respuesta ocurría de forma accidental inmediatamente antes del refuerzo y esa contigüidad era responsable del fortalecimiento de dicha respuesta. A partir de este tipo de observaciones, Skinner concluyó: “Decir que un reforzador es contingente sobre una respuesta no significa otra cosa que decir que “se presenta después de la respuesta”. Para Skinner, presumiblemente, el condicionamiento ocurre únicamente debido a la relación temporal, expresada en términos de la proximidad entre la respuesta y el reforzador.

La sencilla historia anterior fue rápidamente cuestionada en una réplica del estudio de Skinner, publicada por Staddon y Simmelhag en 1971. Al igual que Skinner, a un grupo de palomas se le dió acceso a comida cada 15 segundos, independientemente de su comportamiento. A diferencia de Skinner, estos investigadores observaron cuidadosamente el comportamiento de las palomas a lo largo de los 15 segundos. Los resultados se muestran en la figura x. No encontraron evidencia de que se aprendiera la respuesta individual que accidentalmente antecede el acceso a la comida. No obstante, observaron que para todas las palomas, el comportamiento desplegado se podía agrupar en dos clases: una de respuestas que ocurrían al final del intervalo, a las que llamaron “respuestas terminales”, y las cuales incluían, entre otras, el orientarse hacia la pared del comedero; y una segunda clase de respuestas que agrupaba comportamientos que ocurrían a la mitad del intervalo, a las que llamaron “respuestas interinas”, entre las cuales se observó la conducta de picar el piso. El estudio se replicó con ratas y en ese caso también se observó la agrupación de respuestas en dos clases.

De los resultados del experimento de Staddon y Simmelhag pueden extraerse dos conclusiones, una negativa y otra positiva. Primero, en relación al tema de este capítulo, podemos concluir que en los experimentos en los que no existe una relación netamente causal entre respuesta y SBI, el estímulo no selecciona a la respuesta que accidentalmente le antecede: contradiciendo a la idea que la contigüidad es una condición suficiente para el aprendizaje de respuestas. La conclusión positiva es que la mera presentación de un SBI induce un conjunto tipificado de respuestas, y que la periodicidad de la presentación del SBI organiza el comportamiento de los organismos alrededor del tiempo. En otro capítulo revisaremos en detalle otros resultados relacionados y su papel en una teoría general del comportamiento.

5.1 ¿Es la contigüidad entre una respuesta y un refuerzo una condición necesaria para la adquisición de la respuesta?

En el experimento de superstición de Skinner no había una relación de dependencia causal entre respuesta y refuerzo y Skinner buscaba demostrar que la mera contigüidad era suficiente para el aprendizaje de respuestas. Pero esta demostración dependía de la manera en la que se especifica el concepto de contigüidad en términos concretos (¿cuándo podemos considerar que un suceso es realmente contiguo? Si el SBI ocurre un segundo antes del EC o dos segundos antes, ¿sigue siendo contiguo?¿cuándo comienza y cuándo termina la contigüidad?). Para poder estudiar sistemáticamente el papel de la contigüidad, es necesario especificar la ventana temporal que define a dos eventos como contiguos. La estrategia teórica-experimental inicial en esta área fue considerar como contigüidad una ventana de cero segundos y considerar el impacto de ventanas mayores como distintas instancias de efectos de la demora en el refuerzo.

Para poder analizar el efecto de diferentes demoras, se requiere poder controlar esa relación. Con esa finalidad, es necesario estudiar protocolos en los que exista una relación de dependencia entre la respuesta y el SBI, en particular, protocolos en los cuales se varíe el tiempo entre las respuestas y la presentación de los SBI que son generados por estas respuestas. A continuación revisaremos el efecto de variar el valor temporal de los intervalos entre respuestas y los SBI producidos por ellas.

En un primer experimento, Dickinson y sus colaboradores evaluaron el impacto de diferentes demoras entre la respuesta de apretar una palanca y la presentación del SBI. El experimento se condujo con ratas sin ninguna experiencia previa con el procedimiento. El propósito del experimento fue evaluar si las ratas aprenderían a apretar la palanca. Cada respuesta producía un SBI con una demora fija. Durante el periodo de demora, las ratas podían volver a responder y producir otro SBI con una demora igual. Noten que con este procedimiento podía darse el caso de que accidentalmente una de las respuestas de las ratas durante uno de los periodos de demora ocurriera justo antes del SBI. Para descartar el aprendizaje de respuestas por la mera contigüidad accidental con el SBI (esto es, en ausencia de un efecto causal sobre este) había que evaluar si el aprendizaje de la respuesta en las ratas se genera independientemente de la existencia de una dependencia causal entre respuesta y refuerzo. Para descartar esta posibilidad, se estableció un grupo diferente de ratas a las cuales se les entregaba el SBI al mismo tiempo que lo recibía el grupo dependiente: para este segundo grupo, sus respuestas no tenían ningún efecto sobre el momento de aparición de los reforzadores. Si ambos grupos mostraban los mismos patrones de respuesta, eso significaba que la contigüidad temporal era el factor determinante del aprendizaje de las respuestas y que las ratas del primer grupo no aprendían en función del poder causal que identificaban en sus respuestas. Esto también implicaría que las ratas del primer grupo, el grupo dependiente, estarían aprendiendo a asociar la presentación de los SBI con sus respuestas que se generaban accidental y tardíamente dentro del intervalo de demora. La figura x muestra los resultados del experimento. Se probaron tres valores de demora adicional a la condición de contigüidad estricta. La medida empleada para determinar si se había aprendido la respuesta fue el número de respuestas de apretar la palanca por minuto. En el panel izquierdo puede verse que la tasa de respuestas va decreciendo conforme incrementa la demora hasta alcanzar un valor de 32 segundos entre respuesta y reforzador, y cero aprendizaje con demora de 64 segundos. En el panel de la derecha, se muestra el efecto de la dependencia respuesta-SBI sobre el aprendizaje de las respuestas de las ratas a lo largo de 20 sesiones. Se compara la tasa de respuesta para el grupo con dependencia respuesta-SBI con la del grupo que recibía el SBI independientemente de las respuestas de las ratas. Los resultados indican que para el segundo grupo de ratas, la tasa de respuesta fue casi cero para todas las demoras evaluadas, es decir no hubo aprendizaje, mientras que para el primer grupo de ratas se observaron los patrones de aprendizaje con demoras descritos previamente.

Como ya se mencionó, un problema a resolver para el experimento anterior era controlar la posibilidad de que los organismos aprendieran respuestas que aparecieran accidentalmente contiguas al SBI. Lattal y Gleeson realizaron un experimento con una ingeniosa estrategia alterna para controlar esta posibilidad. En su experimento, la respuesta de las palomas de picar una tecla detonaba una demora de 10 seg. después de la cual obtenían un refuerzo de comida; sin embargo, esto último sólo ocurría si las palomas no daban ninguna respuesta durante el periodo de demora. De esta forma, el diseño experimental garantizaba una demora real de 10 segundos. En la Figura x, puede verse que aún eliminando la posibilidad de una contigüidad accidental, las palomas aprenden la respuesta de picar la tecla.

5.2 Percepción de la relación de causalidad respuesta - refuerzo

Los resultados que hemos reportado en este capítulo, nos llevan a considerar la siguiente pregunta: ¿Pueden los organismos discriminar entre refuerzos producidos por su comportamiento de aquellos que son independientes de él?

Con un ingenioso experimento, Killeen pretendió explorar esta pregunta de manera directa. En el experimento, la tarea para las palomas era discriminar si un cambio en la iluminación de una tecla era el resultado o no de su comportamiento. La respuesta de picar una tecla central iluminada tenía como consecuencia el que, de manera aleatoria, cinco de cada 100 respuestas (probabilidad de 0.05) causaran que se apagara la tecla central y se encendieran dos teclas laterales. A la tasa que la paloma pica la tecla iluminada, la computadora generaba pseudo picotazos que tenían también una probabilidad de 0.05 de apagar la luz de la tecla central y encender las luces de dos teclas laterales. La tarea para las palomas era discriminar si el apagado de la tecla central era consecuencia de uno de sus picotazos o de los producidos por la computadora, es decir los apagados independientes de su respuesta. Si el apagado dependía de la respuesta de la paloma, entonces la respuesta de picar la tecla derecha permitía acceso a la comida; por otro lado, si el apagado era independiente de su respuesta, entonces el picar la tecla izquierda era la respuesta que producía acceso a la comida. Los errores tenían como consecuencia el apagado de todas las luces por un breve periodo de tiempo. La forma en la cual la paloma informaba sobre su juicio era por sus respuestas a las teclas laterales.

Como veremos en la práctica sobre “teoría de detección de señales”, cuando el organismo identifica correctamente al cambio en la tecla que es dependiente de su respuesta le llamamos un “hit”; por el contrario, cuando el organismo identifica al cambio en la tecla como dependiente de su respuesta cuando en realidad era el resultado de una pseudo respuesta, le llamamos una “falsa alarma”. En la práctica sobre teoría de la detección de señales (poner link), veremos que las respuestas de los animales no dependen exclusivamente de su capacidad para detectar causalidad. En este contexto es que emerge la siguiente pregunta: ¿Cuando los organismos muestran alguna respuesta “supersticiosa”, esta se debe a una falla del mecanismo de discriminación o a las ganancias o costos ligados a emitir una respuesta causalmente errónea? Ponderen que harían ustedes si un hit produjera $10, y una falsa alarma les restara un peso. Ahora consideren que harían si los hits les otorgaran $1,000 y las falsas alarmas siguieran teniendo un costo de un peso. Incrementen ahora la ganancia para los hits a $10,000. Seguramente, conforme la ganancia para los hits fuese incrementando, su estrategia se iría acercando a responder con mayor frecuencia que ustedes produjeron el cambio, aunque la probabilidad real de que esta relación causal sea verdadera se mantiene inalterada. En el experimento, Killeen varió la cantidad de comida que las palomas recibían después de un hit y encontró que las palomas se comportan justo como lo haríamos nosotros.

¿Qué papel juega el tiempo transcurrido entre una respuesta y el encuentro con un refuerzo independiente? ¿Si ha transcurrido un tiempo largo entre una respuesta del organismo y un evento accidental, este todavía le asignará poder causal a su respuesta para dar cuenta de la ocurrencia del evento? En el mismo experimento, Killeen se preguntó acerca del efecto del tiempo transcurrido entre una respuesta y el apagado de la luz generado por la computadora sobre la probabilidad de una falsa alarma. Encontró que las falsas alarmas se reducen conforme ese tiempo se mueve de 0.20 seg. a 1.0 seg. Ver fig. Es decir, a mayor distancia entre la respuesta y el suceso accidental, existe una menor probabilidad de que el organismo le asigne poder causal a su respuesta para explicar la ocurrencia del evento accidental.

5.3 Conclusiones

De los experimentos presentados podemos alcanzar las siguientes conclusiones:

La evolución ha seleccionado mecanismos de aprendizaje que consisten en buscar los mejores predictores de los sucesos biológicamente importantes (SBI).
Existen sesgos para reducir el tamaño del espacio de estímulos/respuestas candidatos predictores de SBI.
Existen sesgos como la relevancia biológica, la novedad y la contigüidad.
La contigüidad es un factor que influye la selección de estímulos/respuestas candidato, pero no es una condición ni necesaria ni suficiente para el aprendizaje.
En los casos en los que se considera a compuestos de estímulos como conjuntos de elementos, parece haber competencia entre estos por la asignación de crédito para la predicción del SBI.
El crédito asignado previamente a un elemento del compuesto le resta (bloquea) la posibilidad de asignar crédito a otro elemento. Lo anterior significa que no todos los elementos contiguos al SBI necesariamente son considerados como predictores del mismo.
La contigüidad estricta entre respuesta y SBI tampoco es necesaria para el aprendizaje de respuestas. Las palomas y las ratas pueden aprender una respuesta aún con demoras de 32 segundos.
La mera presentación del refuerzo, independiente de la respuesta, no es suficiente para generar el aprendizaje de una respuesta.
La contigüidad estricta no es necesaria para el aprendizaje de respuestas: pero mientras más cercano esté el refuerzo de una respuesta, más fácil es su adquisición.
Aún en protocolos en los cuales no es posible la contigüidad accidental entre respuesta y SBI, los animales adquieren la respuesta que genera reforzadores demorados en el tiempo.
Las palomas pueden discriminar entre consecuencias dependientes e independientes de su respuesta.
El que un organismo juzgue a una consecuencia como dependiente de su respuesta varía en función de la ganancia y el costo asociado a esos juicios.